NumPy 的數據結構為數據分析不可少的功能,雖然 ndarray 的功能已經很強大,但是當我們需要更多的靈活性的時候,它的缺陷就體現了出來(例如,為數據提供標籤,處理缺失的數據等)。而且如果當需要對數據進行超過廣播能處理範疇的操作時(例如分組,數據透視等)NumPy 就無能為力了。處理真實生活中產生的不乾淨數據來說這會是非常重要的步驟。 Pandas 它的Series和DataFrame對象,讓數據科學家能在 NumPy 的基礎上提供更多操作。我們在本章中會聚焦於了解Series、DataFrame和相關結構的機制上,這是Pandas 的兩種特有的資料結構DataFrame與Series。
我們看到的 Series 和 NumPy 數組是可以互換的概念,兩者最基本的區別方式是索引序號的存在,從下方可以看出利用 Numpy 的數組是利用陣列方式直接提供數值,而 Series 則是有根據索引分類[0,1,2,3]:
import numpy as np
np.array([0.25, 0.5, 0.75, 1.0])
import pandas as pd
pd.Series([0.25, 0.5, 0.75, 1.0])
pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd']) #更改索引標籤
import pandas as pd
area_dict = {'a': 0.25, 'b': 0.5, 'c': 0.75,'d': 1.0}
states = pd.DataFrame({'area': pd.Series(area_dict)})
states
今年沒組團,每一筆一字矢志不渝的獻身精神都是為歷史書寫下新頁,有空的話可以走走逛逛我們去年寫的文章。
Jerry 據說是個僅佔人口的 4% 人口的 INFP 理想主義者,總是從最壞的生活中尋找最好的一面,想方設法讓世界更好,內心的火焰和熱情可以光芒四射,畢業後把人生暫停了半年,緩下腳步的同時找了份跨領域工作。偶而散步、愛跟小動物玩耍。曾立過很多志,最近是希望當一個有夢想的人。
謝謝你的時間「訂閱,追蹤和留言」都是陪伴我走過 30 天鐵人賽的精神糧食。